对基于深度学习的模型的对抗性攻击对当前的AI基础架构构成了重大威胁。其中,特洛伊木马袭击是最难防御的。在本文中,我们首先引入了Badnet类型的攻击变体,该攻击将特洛伊木马后门引入多个目标类,并允许将触发器放置在图像中的任何位置。前者使其更有效,后者使在物理空间中进行攻击变得非常容易。这种威胁模型的最先进的特洛伊木马检测方法失败了。为了防止这种攻击,我们首先引入了一种触发反向工程机制,该机制使用多个图像来恢复各种潜在的触发器。然后,我们通过测量此类恢复触发器的可传递性提出了检测机制。特洛伊木马触发器的可传递性将非常高,即它们使其他图像也进入同一类。我们研究攻击方法的许多实际优势,然后使用各种图像数据集证明检测性能。实验结果表明,我们方法的卓越检测性能超过了最新的。
translated by 谷歌翻译